Cartoonization is a task that renders natural photos into cartoon styles. Previous deep cartoonization methods only have focused on end-to-end translation, which may hinder editability. Instead, we propose a novel solution with editing features of texture and color based on the cartoon creation process. To do that, we design a model architecture to have separate decoders, texture and color, to decouple these attributes. In the texture decoder, we propose a texture controller, which enables a user to control stroke style and abstraction to generate diverse cartoon textures. We also introduce an HSV color augmentation to induce the networks to generate diverse and controllable color translation. To the best of our knowledge, our work is the first deep approach to control the cartoonization at inference while showing profound quality improvement over to baselines.
translated by 谷歌翻译
Detection Transformer (DETR) directly transforms queries to unique objects by using one-to-one bipartite matching during training and enables end-to-end object detection. Recently, these models have surpassed traditional detectors on COCO with undeniable elegance. However, they differ from traditional detectors in multiple designs, including model architecture and training schedules, and thus the effectiveness of one-to-one matching is not fully understood. In this work, we conduct a strict comparison between the one-to-one Hungarian matching in DETRs and the one-to-many label assignments in traditional detectors with non-maximum supervision (NMS). Surprisingly, we observe one-to-many assignments with NMS consistently outperform standard one-to-one matching under the same setting, with a significant gain of up to 2.5 mAP. Our detector that trains Deformable-DETR with traditional IoU-based label assignment achieved 50.2 COCO mAP within 12 epochs (1x schedule) with ResNet50 backbone, outperforming all existing traditional or transformer-based detectors in this setting. On multiple datasets, schedules, and architectures, we consistently show bipartite matching is unnecessary for performant detection transformers. Furthermore, we attribute the success of detection transformers to their expressive transformer architecture. Code is available at https://github.com/jozhang97/DETA.
translated by 谷歌翻译
We approach the problem of improving robustness of deep learning algorithms in the presence of label noise. Building upon existing label correction and co-teaching methods, we propose a novel training procedure to mitigate the memorization of noisy labels, called CrossSplit, which uses a pair of neural networks trained on two disjoint parts of the dataset. CrossSplit combines two main ingredients: (i) Cross-split label correction. The idea is that, since the model trained on one part of the data cannot memorize example-label pairs from the other part, the training labels presented to each network can be smoothly adjusted by using the predictions of its peer network; (ii) Cross-split semi-supervised training. A network trained on one part of the data also uses the unlabeled inputs of the other part. Extensive experiments on CIFAR-10, CIFAR-100, Tiny-ImageNet and mini-WebVision datasets demonstrate that our method can outperform the current state-of-the-art up to 90% noise ratio.
translated by 谷歌翻译
自动睡眠评分对于诊断和治疗睡眠障碍至关重要,并在家庭环境中实现纵向睡眠跟踪。通常,对单渠道脑电图(EEG)进行基于学习的自动睡眠评分是积极研究的,因为困难在睡眠过程中获得多通道信号。但是,由于以下问题,来自原始脑电图信号的学习表示形式挑战:1)与睡眠相关的脑电图模式发生在不同的时间和频率尺度上,2)睡眠阶段共享相似的脑电图模式。为了解决这些问题,我们提出了一个名为Sleepyco的深度学习框架,该框架结合了1)功能金字塔和2)自动睡眠评分的监督对比度学习。对于特征金字塔,我们提出了一个名为sleepyco-backbone的骨干网络,以考虑在不同的时间和频率尺度上的多个特征序列。监督的对比学习允许网络通过最大程度地降低类内部特征之间的距离并同时最大程度地提高阶层间特征之间的距离来提取类别特征。对四个公共数据集的比较分析表明,Sleepyco始终优于基于单渠道EEG的现有框架。广泛的消融实验表明,Sleepyco表现出增强的总体表现,N1和快速眼运动(REM)阶段之间的歧视有了显着改善。
translated by 谷歌翻译
机器学习模型的解释性一直是机器学习系统安全部署的重要领域。一种特殊的方法是将模型决策归因于人类可以理解的高级概念。但是,这种基于概念的深度神经网络(DNN)的解释性主要在图像域上进行了研究。在本文中,我们通过提供有关如何在表格数据上定义概念的想法,将概念归因方法(概念归因方法)扩展到表格学习。在具有基本概念解释和现实世界数据集的合成数据集中,我们显示了方法在生成与人类水平直觉相匹配的可解释性结果方面的有效性。最重要的是,我们提出了一个基于TCAV的公平性概念,该概念量化了哪个DNN层学习的表示形式,从而导致对模型的偏见。另外,我们从经验上证明了基于TCAV的公平性与群体公平概念,人口统计学的关系。
translated by 谷歌翻译
在可解释的机器学习中,当地的事后解释算法和固有的可解释模型通常被视为竞争方法。在这项工作中,提供了有关Shapley Values的新颖观点,即Shapley Values,这是一种突出的事后解释技术,并表明它与玻璃盒 - 玻璃盒 - gams密切相关,Glassbox-Gam是一种流行的可解释模型。我们介绍了$ n $ -Shapley值,这是Shapley值的自然扩展,该值解释了具有交互条款的个人预测,直到$ n $。随着$ n $的增加,$ n $ shapley的值会收敛于Shapley-Gam,这是原始功能的独特确定分解。从Shapley-GAM中,我们可以计算出任意秩序的Shapley值,从而确切的见解对这些解释的局限性。然后,我们证明Shapley值恢复了订单$ n $的通用添加剂模型,假设我们允许交互条款在解释中订购$ n $。这意味着原始的Shapley值恢复了玻璃盒煤气。在技​​术端,我们表明,选择值函数的不同方式与原始函数的不同功能分解之间存在一对一的对应关系。这为如何选择值函数的问题提供了一个新的观点。我们还对各种标准分类器中存在的可变相互作用程度进行了经验分析,并讨论了我们结果对算法解释的含义。一个用于计算$ n $ shapley值的Python软件包,并在本文中复制结果,请访问\ url {https://github.com/tml-tuebingen/nshap}。
translated by 谷歌翻译
现有的图像到图像翻译技术通常遭受了两个关键问题:严重依赖按样本域注释和/或无法处理每个图像的多个属性。最近的方法采用聚类方法来轻松以无监督的方式提供样本注释。但是,他们无法解释现实环境。一个样本可能具有多个属性。此外,集群的语义不容易与人类的理解相结合。为了克服这些,我们提出了一种语言驱动的图像到图像翻译模型,称为LANIT。我们利用文本中给出的易于访问的候选域注释,并在培训期间共同优化它们。目标样式是通过根据多热域分配汇总多域样式向量来指定的。由于最初的候选域文本可能不准确,因此我们将候选域文本设置为可学习的,并在培训期间共同对其进行微调。此外,我们引入了一个松弛域,以涵盖候选域未覆盖的样品。对几个标准基准测试的实验表明,LANIT与现有模型具有可比性或优越的性能。
translated by 谷歌翻译
从先前收集的专家数据数据集中学习提供了有望在没有不安全和昂贵的在线探索的情况下获取机器人政策。但是,一个主要的挑战是培训数据集中的各州与在测试时学到的政策访问的国家之间的分配转移。尽管先前的工作主要研究了在离线培训期间政策引起的分配变化,但研究在部署时间从分布状态恢复的问题还不是很好。我们通过引入一项恢复政策来减轻部署时间的分配转变,该恢复政策将代理人带回培训歧管,每当由于外部扰动而逐渐退出分布状态,例如。恢复策略依赖于训练数据密度的近似值和学习的模棱两可的映射,该映射将视觉观测映射到一个潜在空间中,在该空间中,翻译与机器人动作相对应。我们通过在真正的机器人平台上进行了几个操纵实验来证明所提出的方法的有效性。我们的结果表明,恢复策略使代理可以完成任务,而行为克隆仅由于分配转移问题而失败。
translated by 谷歌翻译
机器学习模型,尤其是人工神经网络,越来越多地用于为在各个领域的高风险场景中(从金融服务,公共安全和医疗保健服务)提供信息。尽管神经网络在许多情况下都取得了出色的性能,但它们的复杂性质引起了人们对现实情况下的可靠性,可信赖性和公平性的关注。结果,已经提出了几种A-tostori解释方法来突出影响模型预测的特征。值得注意的是,Shapley的价值 - 一种满足几种理想特性的游戏理论数量 - 在机器学习解释性文献中获得了知名度。然而,更传统上,在统计学习中的特征是通过有条件独立性正式化的,而对其进行测试的标准方法是通过有条件的随机测试(CRT)。到目前为止,有关解释性和特征重要性的这两个观点已被认为是独特的和独立的。在这项工作中,我们表明基于沙普利的解释方法和针对特征重要性的有条件独立性测试密切相关。更确切地说,我们证明,通过类似于CRT的程序实现了一组特定的条件独立性测试,评估了Shapley系数量,以执行特定的条件独立性测试,但用于不同的零假设。此外,获得的游戏理论值上限限制了此类测试的$ p $值。结果,我们授予大型Shapley系数具有精确的统计意义,并具有控制I型错误。
translated by 谷歌翻译
超声检查的诊断准确性提高仍然是一个重要目标。在这项研究中,我们提出了一种基于生物物理特征的机器学习方法,用于乳腺癌检测,以改善基准深度学习算法以外的性能,并提供一张颜色的覆盖层覆盖层的视觉图,这些视觉图是病变中恶性肿瘤的可能性。该总体框架称为特定疾病的成像。以前,分别利用改良的完全卷积网络和改良的Googlenet对150个乳房病变进行了细分和分类。在这项研究中,在轮廓病变中进行了多参数分析。从基于生物物理和形态学模型的超声射频,包膜和对数压缩数据中提取特征。带有高斯内核的支持向量机构建了非线性超平面,我们计算了多参数空间中每个特征的超平面和数据点之间的距离。距离可以定量评估病变,并提出颜色编码并覆盖在B模式图像上的恶性肿瘤的可能性。对体内患者数据进行了培训和评估。在我们的研究中,最常见类型和大小的乳腺病变的总体准确性超过98.0%,分类为0.98,而接收器操作特征曲线下的区域的总体准确性比放射科医生的性能和深度学习系统更精确。此外,概率与BI RAD之间的相关性实现了预测乳腺癌的定量指南。因此,我们预计所提出的框架可以帮助放射科医生实现更准确,方便的乳腺癌分类和检测。
translated by 谷歌翻译